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Invăţarea automată a regulilor de asociere în mineritul 
datelor (data mining) 


Drew Bentley 


Rezumat 


Învăţarea regulilor de asociere este o metodă de învăţare automată bazată pe reguli pentru 
a descoperi relații interesante între variabilele din bazele de date mari. Este destinată să identifice 
reguli puternice descoperite în bazele de date folosind unele măsuri de interes. Astfel de informaţii 
pot fi folosite ca bază pentru deciziile cu privire la activităţile de marketing, cum ar fi, de exemplu, 
preţurile promoţionale sau plasările de produse. Din analiza coşului de piață, regulile de asociere 
sunt folosite astăzi în multe domenii de aplicaţii, inclusiv mineritul utilizării web, detectarea 
intruziunilor, producția continuă şi bioinformatica. Spre deosebire de mineritul secvenței, 
învățarea regulilor de asociere nu ia în considerare, de obicei, ordinea elementelor fie într-o 


tranzacție, fie între tranzacţii. 


Cuvinte cheie: învăţarea automată, reguli de asociere, mineritul datelor, data mining 


Abstract 


The leaming of the association rule is a rule-based machine learning method for 
discovering interesting relationships between variables in large databases. It is intended to identify 
strong rules discovered in databases using some measures of interest. Such information may be 
used as a basis for decisions regarding marketing activities, such as, for example, promotional 
pricing or product placements. From market basket analysis, association rules are used in many 
application areas today, including web usage mining, intrusion detection, continuous 
manufacturing, and bioinformatics. Unlike sequence mining, association rule learning typically 


does not consider the order of elements either within a transaction or between transactions. 
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Învăţarea regulilor de asociere este o metodă de învățare automată bazată pe reguli pentru 
a descoperi relații interesante între variabilele din bazele de date mari. Este destinată să identifice 
reguli puternice descoperite în bazele de date folosind unele măsuri de interes. Astfel de informaţii 
pot fi folosite ca bază pentru deciziile cu privire la activităţile de marketing, cum ar fi, de exemplu, 
preţurile promoționale sau plasările de produse. Din analiza coşului de piață, regulile de asociere 
sunt folosite astăzi în multe domenii de aplicații, inclusiv mineritul utilizării web, detectarea 
intruziunilor, producția continuă şi bioinformatica. Spre deosebire de mineritul secvenței, 
învățarea regulilor de asociere nu ia în considerare, de obicei, ordinea elementelor fie într-o 


tranzacție, fie între tranzacţii. 


Definiţie 


Urmând definiția originală a lui Agrawal şi colab., problema minării regulilor de asociere 
este definită astfel: 

Fie | = ţii, i, ...» nt un set de atribute n binare numite itemuri. 

Fie D= (ti, to, ..., mt un set de tranzacții numit bază de date. 

Fiecare tranzacție din D are un ID de tranzacţie unic şi conţine un subset de articole din 7. 

O regulă este definită ca o implicaţie a formei: 


X>Y 
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unde X, Y<lșixNY=0. 
Fiecare regulă este compusă din două seturi diferite de elemente, cunoscute şi sub 
denumirea de seturi de itemuri, X şi Y, unde X este numit antecedent sau partea stângă (LHS) şi 


Y consecvent sau partea dreaptă (RHS). 


Exemplu de bază de date cu 5 tranzacţii şi 5 articole 


ID tranzacţie lapte pâine unt bere scutece 
l l l 0) 9) 0) 
2 0) 9) l 0) 9) 
3 9) 0) 0) l l 
4 l l l 0) 0) 
5 0) l 9) 9) 9) 


Pentru a ilustra conceptele, folosim un mic exemplu din domeniul supermarketurilor. Setul 
de articole este I = /lapte,pâine,unt,bere,scutece! iar în tabel este prezentată o mică bază de date 
care conține articolele, unde, în fiecare intrare, valoarea 1 înseamnă prezența articolului în 
tranzacţia corespunzătoare, iar valoarea 0 reprezintă absența unui articol în tranzacţia respectivă. 

Un exemplu de regulă pentru supermarket ar putea fi țunt, pâine! => (lapte), ceea ce 
înseamnă că, dacă se cumpără unt şi pâine, clienții cumpără şi lapte. 

Notă: acest exemplu este extrem de mic. În aplicaţiile practice, o regulă are nevoie de un 
suport de câteva sute de tranzacţii înainte de a putea fi considerată semnificativă din punct de 


vedere statistic, iar seturile de date conţin adesea mii sau milioane de tranzacţii. 


Concepte utile 


Pentru a selecta reguli interesante din setul tuturor regulilor posibile, se folosesc 
constrângeri asupra diferitelor măsuri de semnificaţie şi interes. Cele mai cunoscute constrângeri 


sunt pragurile minime de sprijin şi încredere. 
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Fie X un set de articole, X = Y o regulă de asociere și T un set de tranzacții ale unei baze 


de date date. 


Suport 


Suportul este o indicație a frecvenţei cu care setul de articole apare în baza de date. 

Valoarea suport a lui X în raport cu T este definită ca proporția de tranzacții din baza de 
date care conţine setul de articole X . În formula: supp(X)/N 

În exemplul de bază de date, setul de articole fbere,scutece) are suport, deoarece apare în 
20% din toate tranzacțiile (1 din 5 tranzacții). Argumentul supp () este un set de precondiţii şi, 


prin urmare, devine mai restrictiv pe măsură ce crește (în loc să fie mai incluziv). 


Incredere 


Încrederea este un indiciu al cât de des s-a constatat că regula este adevărată. 

Valoarea de încredere a unei reguli, X > Y, în raport cu un set de tranzacții T, este proporția 
tranzacţiilor care conţine X care conține şi Y. 

Încrederea este definită ca: 

conf(ă > Y) = supp(X u Y)/supp(X). 

De exemplu, regula țunt,pâine) > !lapte) are un nivel de încredere de 0,2 > în baza de 
date, ceea ce înseamnă că pentru 100% dintre tranzacţiile care conţin unt şi pâine regula este 
corectă (100% din cazurile în care un client cumpără unt si paine, cumpără şi lapte). 

Reţineți că supp( X U Y) înseamnă suportul uniunii elementelor din X şi Y. Acest lucru 
este oarecum confuz, deoarece în mod normal gândim în termeni de probabilităţi de evenimente și 
nu de seturi de elemente. Putem rescrie supp(X U Y) ca probabilitate comună P(Ex N Ex), unde 
Ex şi Ey sunt evenimentele pentru care o tranzacţie conţine setul de articole X sau, respectiv, Y. 

Astfel, încrederea poate fi interpretată ca o estimare a probabilității condiționate P(Ev | Ex), 
probabilitatea de a găsi RHS a regulii în tranzacții cu condiţia ca aceste tranzacții să conţină și 


LHS. 


Creştere 


Creşterea (/i/?) unei reguli este definită astfel: 
lift(X > Y) = supp(X u Y)/ supp(X) x supp(Y) 


sau raportul dintre suportul observat şi cel aşteptat dacă X și Y ar fi independenți. 
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De exemplu, regula lapte,pâine! > (unt? are o creștere de 0,2 /0,4 x 0,4 = 1,25. 

Dacă regula ar avea o creştere de 1, ar implica faptul că probabilitatea de apariţie a 
antecedentului şi cea a consecinţei sunt independente una de cealaltă. Când două evenimente sunt 
independente unul de celălalt, nu poate fi luată în considerare nicio regulă care să implice aceste 
două evenimente. 

Dacă creşterea este > 1, asta ne permite să cunoaștem gradul în care aceste două apariții 
sunt dependente una de cealaltă și face ca acele reguli să fie potenţial utile pentru prezicerea 
consecinţelor în seturile de date viitoare. 

Valoarea creşterii este că ia în considerare atât încrederea regulii, cât şi setul de date 


general. 


Convingere 


Convingerea unei reguli este definită ca conv(X > Y) = (1- supp(Y))/(1 - conf(ă > Y)). 
De exemplu, regula (lapte, pâine! > tunt! are o convingere de (1 - 0,4)/(1 - 0,5) = 172, şi 
poate fi interpretată ca raportul dintre frecvența așteptată pe care X apare fără Y (adică frecvența 
la care regula face o predicție incorectă) dacă X și Y au fost independenţi, împărțit la frecvenţa 
observată a predicţiilor incorecte. În acest exemplu, valoarea convingerii de 1,2 arată că 
regula (lapte, pâine! > țunt! ar fi incorectă cu 20% mai des (de 1,2 ori mai des) dacă 


asocierea între X și Y ar fi pur întâmplătoare. 


Proces 


Regulile de asociere sunt de obicei necesare pentru a satisface un suport minim specificat 
de utilizator şi o încredere minimă specificată de utilizator în același timp. Generarea regulilor de 
asociere este de obicei împărțită în două etape separate: 


]. Se aplică un prag minim de asistență pentru a găsi toate seturile de articole frecvente 
dintr-o bază de date. 

2. O constrângere minimă de încredere se aplică acestor seturi frecvente de articole pentru a 
forma reguli. 
În timp ce al doilea pas este simplu, primul pas necesită mai multă atenţie. 


Găsirea tuturor seturilor de articole frecvente într-o bază de date este dificilă, deoarece 
presupune căutarea tuturor seturilor de articole posibile (combinații de articole). Setul de seturi de 
articole posibile este setul de putere peste / şi are dimensiunea 2" -/ (excluzând setul gol care nu 


este un set de articole valid). Deşi dimensiunea setului de putere creşte exponențial în numărul de 
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elemente n în /, este posibilă căutarea eficientă folosind proprietatea de închidere în jos a 
suportului (numită şi anti-monotonitate) care garantează că pentru un set de articole frecvente, 
toate subseturile sale sunt de asemenea, frecvente şi, prin urmare, pentru un set de articole rar, 
toate super-seturile sale trebuie să fie, de asemenea, rare. Exploatând această proprietate, algoritmii 


eficienți (de exemplu, Apriori şi Eclat) pot găsi toate seturile de articole frecvente. 


(Setul de articole frecvente, unde culoarea casetei indică câte tranzacții conţin combinaţia de articole. Reţineţi că 
nivelurile inferioare ale reţelei pot conţine cel mult numărul minim de articole ale părinţilor lor, de exemplu. fac) 
poate avea numai cel mult min(a, c) elemente. Aceasta se numeşte proprietatea de închidere în jos.) 


Istorie 


Conceptul de reguli de asociere a fost popularizat în special datorită articolului din 1993 al 
lui Agrawal şi colab., care a obţinut peste 18.000 de citări conform lui Google Scholar, în august 
2015, şi este, prin urmare, una dintre cele mai citate lucrări din domeniul mineritului de date. Cu 


toate acestea, este posibil ca ceea ce se numeşte acum „reguli de asociere” să fie similar cu ceea 
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ce apare în lucrarea din 1966 despre GUHA, o metodă generală de extragere a datelor dezvoltată 
de Petr Hajek şi colab. 

O utilizare timpurie (circa 1989) a suportului minim şi a încrederii pentru a găsi toate 
regulile de asociere este cadrul de modelare bazată pe caracteristici, care a găsit toate regulile cu 


supp(X) şi conf(X => Y) mai mari decât constrângerile definite de utilizator. 


Măsuri alternative de interes 


Pe lângă încredere, au fost propuse şi alte măsuri de interes pentru reguli. Câteva măsuri 
populare sunt: 


Toată încrederea 

Puterea colectivă 

Convingerea 

Pârghia 

Creşterea (numit inițial dobândă) 

Mai multe măsuri sunt prezentate şi comparate de Tan şi colab. şi de Hahsler. Căutarea 


tehnicilor care să modeleze ceea ce a cunoscut utilizatorul (și folosirea acestor modele ca măsuri 


de interes) este în prezent o tendinţă de cercetare activă sub numele de „Interesantitate subiectivă”. 


Asociaţii statistice solide 


O limitare a abordării standard de a descoperi asocieri este că, prin căutarea unui număr 
masiv de asocieri posibile pentru a căuta colecții de articole care par a fi asociate, există un risc 
mare de a găsi multe asocieri false. Acestea sunt colecții de elemente care apar concomitent cu o 
frecvență neașteptată în date, dar o fac doar întâmplător. De exemplu, să presupunem că luăm în 
considerare o colecție de 10.000 de articole şi căutăm reguli care conțin două articole în partea 
stângă şi 1 articol în partea dreaptă. Există aproximativ 1.000.000.000.000 de astfel de reguli. Dacă 
aplicăm un test statistic pentru independenţă cu un nivel de semnificaţie de 0,05 înseamnă că există 
doar 5% şanse de a accepta o regulă dacă nu există asociere. Dacă presupunem că nu există 
asociaţii, ar trebui să ne aşteptăm totuşi să găsim 50.000.000.000 de reguli. Descoperirea statistică 
a asocierilor controlează acest risc, în majoritatea cazurilor reducând riscul de a găsi asocieri false 


la un nivel de semnificaţie specificat de utilizator. 
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Algoritmi 


De-a lungul timpului au fost prezentaţi mulți algoritmi pentru generarea regulilor de 
asociere. 

Unii algoritmi bine cunoscuţi sunt Apriori, Eclat şi FP-Growth, dar fac doar jumătate din 
treabă, deoarece sunt algoritmi pentru extragerea de elemente frecvente. Un alt pas trebuie făcut 


după generarea regulilor din seturile de articole frecvente găsite într-o bază de date. 


Algoritmul Apriori 


Apriori foloseşte o strategie de căutare pe lățime mai întâi pentru a număra suportul 
seturilor de articole şi utilizează o funcţie de generare a candidatului care exploatează proprietatea 


de închidere descendentă a suportului. 


Algoritmul Eclat 


Eclat (alt. ECLAT, înseamnă Equivalence Class Transformation) este un algoritm de 
căutare în profunzime care utilizează intersecția setată. Este un algoritm natural elegant, potrivit 
atât pentru execuţie secvenţială, cât şi pentru execuţie paralelă, cu proprietăți de îmbunătăţire a 
localizării. A fost introdus pentru prima dată de Zaki, Parthasarathy, Li şi Ogihara într-o serie de 
lucrări scrise în 1997: 


e Mohammed Javeed Zaki, Srinivasan Parthasarathy, M. Ogihara, Wei Li: New Algorithms 
for Fast Discovery of Association Rules. KDD 1997. 

e Mohammed Javeed Zaki, Srinivasan Parthasarathy, Mitsunori Ogihara, Wei Li: Parallel! 
Algorithms for Discovery of Association Rules. Data Min. Knowl. Discov. 1(4): 343-373 
(1997) 


Algoritmul de creştere FP 


FP înseamnă tipar frecvent (frequent pattern). 

În prima trecere, algoritmul contorizează apariţia elementelor (perechile atribut-valoare) 
din setul de date şi le stochează în „tabelul antetului”. În a doua trecere, construieşte structura 
arborelui FP prin inserarea instanțelor. Elementele din fiecare instanță trebuie să fie sortate în 
ordinea descrescătoare a frecvenţei lor în setul de date, astfel încât arborele să poată fi procesat 
rapid. Elementele din fiecare caz care nu îndeplinesc pragul minim de acoperire sunt eliminate. 
Dacă multe cazuri au cele mai frecvente elemente în comun, arborele FP oferă o compresie ridicată 


aproape de rădăcina arborelui. 
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Procesarea recursivă a acestei versiuni comprimate a setului de date principal creşte direct 
seturi mari de articole, în loc să genereze elemente candidate şi să le testeze pe întreaga bază de 
date. Creşterea începe din partea de jos a tabelului antet (având cele mai lungi ramuri), prin găsirea 
tuturor instanțelor care se potrivesc condiției date. Este creat un nou arbore, cu numărătoare 
proiectate din arborele inițial corespunzătoare setului de instanţe care sunt condiționate de atribut, 
fiecare nod primind suma numerelor fii. Creşterea recursivă se încheie atunci când niciun element 
individual condiționat de atribut nu mai atinge pragul minim de suport, iar procesarea continuă 
pentru elementele de antet rămase ale arborelui FP original. 

Odată ce procesul recursiv s-a încheiat, toate seturile mari de articole cu acoperire minimă 


au fost găsite şi începe crearea regulilor de asociere. 


Alţi algoritmi 
AprioriDP 
AprioriDP utilizează programarea dinamică în extragerea frecventă a seturilor de articole. 


Principiul de funcționare este eliminarea generaţiei candidate, cum ar fi arborele FP, dar stochează 


numărul de suport într-o structură de date specializată în loc de arbore. 


Algoritmul de minerit cu reguli de asociere bazată pe context 


CBPNARM (Context Based Association Rule Mining Algorithm) este algoritmul dezvoltat 
în 2013 pentru a aplica regulile de asociere miniere pe baza contextului. Foloseşte o variabilă de 
context pe baza căreia suportul unui set de articole este modificat pe baza căreia regulile sunt în 


cele din urmă populate în setul de reguli. 


Algoritmi bazaţi pe seturi de noduri 

FIN, PrePost şi PPV sunt trei algoritmi bazaţi pe seturi de noduri. Ei folosesc noduri într- 
un arbore FP de codare pentru a reprezenta seturile de articole şi folosesc o strategie de căutare în 
profunzime pentru a descoperi seturi de articole frecvente folosind „intersecția” seturilor de noduri. 


Procedura GUHA ASOC 


GUHA este o metodă generală de analiză exploratorie a datelor care are fundamente 


teoretice în calculul observațional. 
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Procedura ASSOC este o metodă GUHA care analizează regulile de asociere generalizate 
folosind operaţii rapide cu şiruri de biţi. Regulile de asociere extrase de această metodă sunt mai 
generale decât cele produse de Apriori, de exemplu, „articolele” pot fi conectate atât cu conjuncțţii, 
cât şi cu disjuncţii, iar relaţia dintre antecedent și consecinţă a regulii nu se limitează la stabilirea 
unui suport şi încredere minime, ca în Apriori: poate fi utilizată o combinaţie arbitrară de măsuri 


de interes susținut. 


Căutare OPUS 


OPUS este un algoritm eficient pentru descoperirea regulilor care, spre deosebire de 
majoritatea alternativelor, nu necesită constrângeri monotone sau antimonotone, cum ar fi suportul 
minim. Folosit inițial pentru a găsi reguli pentru un rezultat fix, a fost ulterior extins pentru a găsi 
reguli cu orice element ca o consecinţă. Căutarea OPUS este tehnologia de bază în popularul sistem 


de descoperire a asociaţiei Magnum Opus. 


Lore 


O poveste faimoasă despre minerit cu reguli de asociere este povestea „berei şi scutecului”. 
Un presupus sondaj privind comportamentul cumpărătorilor din supermarketuri a descoperit că 
clienţii (prezumabil bărbaţi tineri) care cumpără scutece tind să cumpere și bere. Această anecdotă 
a devenit populară ca exemplu al modului în care regulile de asociere neaşteptate pot fi găsite din 
datele de zi cu zi. Există opinii diferite cu privire la cât de adevărată este povestea. Daniel Powers 
spune: 

“În 1992, Thomas Blischok, managerul unui grup de consultanță de retail la Teradata, şi 
personalul său au pregătit o analiză a 1,2 milioane de coșuri de piață de la aproximativ 25 de 
magazine Osco Drug. Au fost dezvoltate interogări de baze de date pentru a identifica afinitățile. 
Analiza „a descoperit că între orele 17:00 şi 19:00 consumatorii cumpărau bere şi scutece”. 


Managerii Osco NU au exploatat relația bere şi scutece prin apropierea produselor pe rafturi.” 


Alte tipuri de minerit a asocierilor 


Reguli de asociere cu relaţii multiple: Reguli de asociere cu relaţii multiple (MRAR) este 
o nouă clasă de reguli de asociere care, spre deosebire de regulile de asociere primitive, simple şi 
chiar multi-relaţionale (care sunt de obicei extrase din baze de date multi-relaționale), fiecare 


element de regulă constă dintr-o entitate dar mai multe relații. Aceste relații indică relații indirecte 
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între entități. Luaţi în considerare următorul MRAR în care primul element constă din trei relații 
locuinţa, vecinătatea şi umiditatea: „Cei care locuiesc într-un loc care este în apropierea unui oraş 
cu tip de climă umedă şi, de asemenea, au mai puțin de 20 de ani -> starea lor de sănătate este 
bună” . Astfel de reguli de asociere pot fi extrase din datele RDBMS sau din datele web semantice. 

Regulile de asociere bazate pe context este o formă de regulă de asociere. Regulile de 
asociere bazate pe context pretind mai multă acuratețe în analizarea regulilor de asociere, luând în 
considerare o variabilă ascunsă numită variabilă de context care modifică setul final de reguli de 
asociere în funcție de valoarea variabilelor de context. De exemplu, orientarea coşurilor în analiza 
coşului de piaţă reflectă un model ciudat în primele zile ale lunii. Acest lucru se poate datora unui 
context anormal, adică salariul este luat la începutul lunii. 

Învăţarea setului de contrast este o formă de învățare asociativă. Cursanţii cu set de 
contrast folosesc reguli care diferă semnificativ în distribuţia lor între subseturi. 

Învăţarea la clasă ponderată este o altă formă de învăţare asociativă în care ponderea 
poate fi atribuită claselor pentru a se concentra pe o anumită problemă de interes pentru 
consumatorul rezultatelor mineritului de date. 

Descoperirea modelelor de ordin înalt facilitează capturarea de modele de ordin înalt 
(politetice) sau asocieri de evenimente care sunt intrinseci datelor complexe din lumea reală. 

Descoperirea modelului K-optimal oferă o alternativă la abordarea standard a învăţării 
regulilor de asociere care necesită ca fiecare model să apară frecvent în date. 

Mineritul setului de articole frecvente aproximat este o versiune relaxată a mineritului 
setului de articole frecvente care permite ca unele dintre elementele din unele rânduri să fie 0. 

Taxonomie ierarhică a regulilor de asociere generalizate (ierarhie conceptuală) 

Reguli de asociere cantitativă, date categorice şi cantitative 

Reguli de asociere a datelor cu intervale, de ex. împărțiți vârsta în reguli de asociere 
maxime cu intervale de 5 ani 

Mineritul secvențial al modelelor descoperă subsecvenţele care sunt comune pentru mai 
mult decât secvențele minsup într-o bază de date de secvențe, unde minsup este setat de utilizator. 
O secvenţă este o listă ordonată de tranzacții. 

Reguli secvențiale care descoperă relaţiile dintre articole, luând în considerare ordinea 


în timp. Se aplică în general pe o bază de date de secvenţe. De exemplu, o regulă secvenţială găsită 
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în baza de date cu secvenţe de tranzacţii ale clienţilor poate fi aceea că clienții care au cumpărat 
un computer și CD-Rom-uri, au cumpărat ulterior o cameră web, cu o anumită încredere şi suport. 

Clusteringul subspaţial, un tip specific de clustering de date cu dimensiuni înalte, se 
bazează, în multe variante, şi pe proprietatea de închidere descendentă pentru anumite modele de 
clustering. 

Warmr este livrat ca parte a suitei de extragere a datelor ACE. Permite învăţarea regulilor 
de asociere pentru reguli relaționale de ordinul întâi. 

Minimizarea așteptată a entropiei flotante descoperă simultan relaţiile dintre nodurile 
(denumite elemente aici) ale unui sistem şi, de asemenea, între diferitele stări în care se pot afla 
nodurile. Teoria leagă asocierile inerente sistemelor, precum creierul, de asocierile prezente în 


percepție. 
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